Day21 MoE(Mixture of Experts) - iT 邦幫忙::一起幫忙解決難題，拯救 IT 人的一天

2025 iThome 鐵人賽

DAY 21

0

AI & Data

AI初學者入門系列第 21 篇

Day21 MoE(Mixture of Experts)

17th鐵人賽

團隊新手小黑

2025-08-23 14:22:30

190 瀏覽

分享至

什麼是Mixture of Experts (MoE, 專家混合模型) ?

一種神經網路架構設計理念，目標是讓模型既能擴大參數規模，又能降低計算成本。

基本的特色:

專家子模型 (Experts):每個專家都擅長處理不同類型的輸入。
門控網路 (Gating Network):依照輸入的特徵，決定哪些專家需要被激活並使用。
稀疏啟用 (Sparse Activation)：在數百個專家中，實際運算時只挑選少數（例如 2 個）參與。

實際案例(特別適合大型語言模型、推薦系統、多模態 AI):

Google 的 Switch Transformer 採用 MoE 設計，它擁有上兆參數，但每次推理僅需啟動少數專家，實際的計算需求比傳統全量參數模型小得多。隨後推出的 GLaM 也展示了同樣的效益：在達到與 GPT-3 相近甚至更好的表現時，能效卻大幅提升。

缺點:

負載平衡: 如果門控網路過於偏好某些專家，這些專家就會被過度使用，而其他專家則閒置不用，導致訓練資源浪費，甚至影響模型泛化能力。研究者因此引入額外的「平衡損失函數」，強迫門控網路更平均地分配任務。
分散式訓練環境: 由於專家的輸入與輸出需要在不同運算節點間交換，通信成本成為瓶頸。

Day20向量壓縮與 ANN 搜尋

系列文

AI初學者入門共 30 篇

目錄

RSS系列文訂閱系列文

8 人訂閱

完整目錄

熱門推薦

{{ item.subject }}

{{ item.channelVendor }} | {{ item.webinarstarted }} |

{{ formatDate(item.duration) }}

直播中

尚未有邦友留言

立即登入留言

參賽組數

902 組

團體組數

37 組

累計文章數

19803 篇

完賽人數

529 人

15th鐵人賽 16th鐵人賽 13th鐵人賽 14th鐵人賽 17th鐵人賽 12th鐵人賽 11th鐵人賽鐵人賽 2019鐵人賽 javascript 2018鐵人賽 python 2017鐵人賽 windows php c# linux windows server css react

IT邦幫忙